在机器学习中,培训数据通常捕获一些基本人口的多个亚组的行为。当未仔细控制子组的培训数据的性质时,会产生代表性不足的偏差。为了应对这种效果,我们介绍了两个自然的亚组公平性和瞬时公平概念,以解决时间表预测问题的这种不足代表性偏见。在这里,我们使用非交通性多项式优化问题的凸面层次结构显示了全球收敛的方法。我们对由保险应用程序和众所周知的Compas数据集的有偏见数据集的经验结果证明了我们方法的功效。我们还表明,通过利用凸的稀疏性,我们可以大大减少方法的运行时间。
translated by 谷歌翻译
We explore unifying a neural segmenter with two-pass cascaded encoder ASR into a single model. A key challenge is allowing the segmenter (which runs in real-time, synchronously with the decoder) to finalize the 2nd pass (which runs 900 ms behind real-time) without introducing user-perceived latency or deletion errors during inference. We propose a design where the neural segmenter is integrated with the causal 1st pass decoder to emit a end-of-segment (EOS) signal in real-time. The EOS signal is then used to finalize the non-causal 2nd pass. We experiment with different ways to finalize the 2nd pass, and find that a novel dummy frame injection strategy allows for simultaneous high quality 2nd pass results and low finalization latency. On a real-world long-form captioning task (YouTube), we achieve 2.4% relative WER and 140 ms EOS latency gains over a baseline VAD-based segmenter with the same cascaded encoder.
translated by 谷歌翻译
Artificial intelligence methods including deep neural networks (DNN) can provide rapid molecular classification of tumors from routine histology with accuracy that matches or exceeds human pathologists. Discerning how neural networks make their predictions remains a significant challenge, but explainability tools help provide insights into what models have learned when corresponding histologic features are poorly defined. Here, we present a method for improving explainability of DNN models using synthetic histology generated by a conditional generative adversarial network (cGAN). We show that cGANs generate high-quality synthetic histology images that can be leveraged for explaining DNN models trained to classify molecularly-subtyped tumors, exposing histologic features associated with molecular state. Fine-tuning synthetic histology through class and layer blending illustrates nuanced morphologic differences between tumor subtypes. Finally, we demonstrate the use of synthetic histology for augmenting pathologist-in-training education, showing that these intuitive visualizations can reinforce and improve understanding of histologic manifestations of tumor biology.
translated by 谷歌翻译
最近,人们对AI的监管产生了很多兴趣。我们主张基于民权立法的观点,该观点是基于平等待遇和同等影响的观念。在AI系统及其用户的闭环视图中,平等的治疗涉及一个通过循环。我们认为,同等影响涉及重复互动之间的长期平均行为。为了确定平均值及其特性的存在,需要研究闭环的厄法德特性及其独特的固定度量。
translated by 谷歌翻译
随机旋转的Cholesky(RPCholesky)是一种用于计算N X N阳性半芬酸矩阵(PSD)矩阵的等级K近似的天然算法。RPCholesky只需几行代码就可以实现。它仅需要(k+1)n进入评估,o(k^2 n)其他算术操作。本文对其实验和理论行为进行了首次认真研究。从经验上讲,rpcholesky匹配或改善了低级别PSD近似的替代算法的性能。此外,RPCholesky可证明达到了近乎最佳的近似保证。该算法的简单性,有效性和鲁棒性强烈支持其在科学计算和机器学习应用中的使用。
translated by 谷歌翻译
手工和小规模的黄金开采(ASGM)是许多家庭的重要收入来源,但它可以产生巨大的社会和环境影响,尤其是在发展中国家的雨林中。Sentinel-2卫星收集了多光谱图像,可用于检测水位和质量的变化,这表明采矿地点位置。这项工作着重于对秘鲁亚马逊雨林中ASGM活动的认可。我们根据支持向量机(SVM)测试了几个半监督分类器,以检测Madre de Dios地区从2019年到2021年的水体变化,这是ASGM活动的全球热点之一。实验表明,基于SVM的模型可以实现RGB的合理性能(使用Cohen的$ \ kappa $ 0.49)和6通道图像(使用Cohen的$ \ kappa $ 0.71),具有非常有限的注释。还分析了合并实验室色彩空间的功效。
translated by 谷歌翻译
在本文中,我们提出了一个动态的级联编码器自动语音识别(ASR)模型,该模型统一了不同部署方案的模型。此外,该模型可以显着降低模型尺寸和功耗而不会损失质量。也就是说,使用动态级联编码器模型,我们探索了三种技术,以最大程度地提高每个模型大小的性能:1)在共享编码器时为每个子模型使用单独的解码器;2)使用漏斗 - 提高编码器效率;3)平衡因果关系的大小,以提高质量和适合部署限制。总体而言,与基线级联编码器模型相比,拟议的大中等模型的尺寸较小30%,并将功耗降低了33%。统一大型,中和小型模型的三重大小模型可实现37%的总尺寸减少,而质量损失最小,同时大大减少了拥有单独模型的工程工作。
translated by 谷歌翻译
随着工程系统的复杂性的增长,对自动方法的需求越来越多,可以检测,诊断甚至正确的瞬时异常,这些异常不可避免地会出现,并且可能难以或不可能手动诊断和修复。在我们文明的最敏感和最复杂的系统中,探测器在引力波引起的距离中寻找令人难以置信的很小的变化 - 阿尔伯特·爱因斯坦(Albert Einstein)最初预测的现象是由于黑洞和其他其他碰撞而在宇宙中涌现和传播的探测器。深空中的大量物体。此类探测器的极端复杂性和精度使它们受到瞬时噪声问题的影响,这些问题可能会大大限制其敏感性和有效性。在这项工作中,我们介绍了一种可以检测和表征这种大规模复杂系统的新兴瞬态异常的方法的演示。我们通过一个普遍的问题之一来说明自动化解决方案的性能,精度和适应性,限制重力波发现:陆地质量造影,污染了重力波观测体的高度敏感测量,并可以模仿甚至模仿的天体物理学信号他们正在听。具体而言,我们证明了高度可解释的卷积分类器如何自动学习从辅助探测器数据中检测瞬时异常,而无需观察异常本身。我们还说明了该模型的其他几个有用的功能,包括如何执行自动变量选择,以将数万个辅助数据渠道降低到只有几个相关的数据渠道;它如何识别这些通道中异常情况的行为特征;以及如何使用它来研究单个异常及其相关的渠道。
translated by 谷歌翻译
随着我们感知增强的能力,我们正在经历从数据贫困问题的过渡,其中中心问题是缺乏相关数据,即数据越来越多的问题,其中核心问题是确定一个中的一些相关功能海洋观察。通过在重力波天体物理学中应用的激励,我们研究了从检测器及其环境中丰富的测量值收集的引力波检测器中瞬时噪声伪影的存在。我们认为,功能学习 - 从数据中优化了哪些相关功能 - 对于实现高精度至关重要。我们引入的模型将错误率降低60%以上,而不是先前使用固定的手工制作功能的最新现状。功能学习不仅有用,因为它可以提高预测任务的性能;结果提供了有关与感兴趣现象相关的模式的宝贵信息,否则这些现象将是无法发现的。在我们的应用程序中,发现与瞬态噪声相关的功能提供了有关其起源的诊断信息,并建议缓解策略。在高维环境中学习具有挑战性。通过使用各种体系结构的实验,我们确定了成功模型中的两个关键因素:稀疏性,用于在高维观测中选择相关变量;和深度,这赋予了处理复杂相互作用和相对于时间变化的鲁棒性的灵活性。我们通过对实际检测器数据进行系统的实验来说明它们的意义。我们的结果提供了对机器学习社区中常见假设的实验性佐证,并具有直接适用于提高我们感知引力波的能力以及许多其他具有类似高维,嘈杂或部分无关数据的问题的问题。
translated by 谷歌翻译
我们的工作针对自动分析,以量化细菌细菌群体的生长动力学。我们提出了一种创新的方法,通过自动化新的,特定的成本功能的自动化最小化对可变形细胞运动的框架跟踪。这种最小化由专用的玻尔兹曼机器(随机复发神经网络)实现。通过连续的两个成本函数的最小化,对细胞分裂的自动检测进行了类似的处理,从而交替地识别儿童对和父母的识别。我们使用(i)记录模拟细胞菌落的记录来验证提出的自动细胞跟踪算法,这些算法与微流体陷阱和(ii)真实数据密切模仿大肠杆菌的生长动力学。在一批1100个模拟图像框架上,每帧的单元格登记精度范围从94.5%到100%,平均水平很高。我们使用大肠杆菌菌落的实验图像序列(即实际数据)进行的初始测试也产生令人信服的结果,注册精度范围从90%到100%。
translated by 谷歌翻译